
SenseNova-5o 产品介绍
Sensenova-5o 基础架构

1. 背景信息
Sensenova-5o(“o”代表“omni”)迈向更自然的人机交互的一步,目前已经实现了音频与图像和视频的任意组合输入,并直接生成语音。目前我们已支持半双工及全双工的交互模式,后续将同时提供两种交互模式的服务。 半双工服务模式下可以支持平均560毫秒(忽略网络延时的影响)响应音频与图像输入,与人类的对话交互响应类似。 支持图像解析1200 x 800px,音频长度不超过30S输入,视频分辨率不超过720p。
2. 产品形态
我们主要通过 API 的方式提供 Sensenova-5o 的调用服务,因此产品的主要形态仍以模型云服务为主,向客户开放 API 接口调用。
全双工:
端到端API:我们基于第三方供应商webrtc服务完成音视频传输的连接及交互,在此基础上,我们提供了一个基于Websocket协议的API,用以连接第三方webrtc服务及设置sensenova-5o模型服务的各种参数。另外,为了避免噪声误触影响 Sensenova-5o模型体验,用户需要自行调用第三方RTC服务中的回声消除及降噪模块,或在端侧进行相关处理。
我们同时还提供其他更为灵活的调用组合选择,以支持不同用户的需求:
API+webrtc网络+语音生成的完整端到端服务。语音部分可以提供多种不同的音色选择
仅API+webrtc网络。客户可以选用自己的TTS语音服务
仅提供模型API。需要客户自行调用webrtc传输音视频,并自行调用第三方TTS实现语音回复
以上提供的方式均已涵盖语音实时对话及视频实时对话,以便用户根据自己的业务需求进行选择
半双工:
API为云端调用方式,输入图片流/视频流+语音,输出语音。若以API接入,需自行实现视频选帧逻辑。
API基于Websocket协议开发,可支持图片流传输。
SDK为端侧client,内部封装了视频选帧逻辑+API调用,输入视频+语音,输出语音。
SDK目前暂时也只提供Websocket的协议接入。
目前暂时覆盖 linux、Andriod 两个平台,具体依赖信息详见使用指引。
3.产品特点
5o不仅是一个仿佛真人般的能看能说的伙伴,更是一个能够全方位理解和响应您需求的小助理。我们具备以下能力:
音视频多模态交互:5o能够同时处理音频和视频数据,实现更自然、更直观的交流方式,目前已同时支持纯语音实时对话及视频实时对话的交互模式。
实时视频理解:5o具备推理能力,能够实时理解视频内容,结合上下文内容做出合理的回复。
随时打断:用户可以随时打断对话,5o能够理解打断的意图,并及时做出合理的推理和回应。
个性化表达:根据用户的设定和偏好,5o能够调整对话风格,实现个性化的交流。
情绪识别:视频交互下通过分析语音和面部表情,5o能够感知用户的情绪,从而提供更合适的回应。
物体识别:5o能够识别视频中的物体,提供更加丰富和具体的描述内容。比如艺术品鉴赏。
场景识别:5o能够识别视频中的场景和环境,并对场景和环境做出适当的描述。比如居家和办公环境,旅游导览等。
其他多场景应用:无论是家庭娱乐、在线教育还是健康咨询,5o都能在多个场景下扮演一个真人伙伴或助教的角色。
4. 产品体验
试用需联系 SenseNova-50-support@sensetime.com 获取iss和secret,并基于iss和secret生成iwt token
5. 产品计费模式
目前,我们提供限时免费体验,如需了解详细的定价信息和定制方案,请发送邮件至 SenseNova-5o-support@sensetime.com 与我们联系。我们的销售团队将根据您的实际需求,提供专业的咨询和服务。
6. 如何申请试用
需要发送邮件到 SenseNova-5o-support@sensetime.com 申请,申请邮件具体信息填写参考如下:
客户名称 |
接口人 |
联系方式 |
预计应用场景 |
交互模式(全双工/半双工) |
---|---|---|---|---|